Скрыть
Раскрыть

ISSN 1998-0663 (print),
ISSN 2587-8166 (online)

English version: ISSN 2587-814X (print),
ISSN 2587-8158 (online)

Черняк Е. Л.1, Миркин Б. Г.1,2
  • 1 НИУ ВШЭ, 101000, Россия, Москва, ул. Мясницкая, д.20
  • 2 НИУ ВШЭ, 603014, Россия, Нижний Новгород, Сормовское шоссе, д.30

Использование мер релевантности строка-текст для автоматизации рубрикации научных статей

2014. № 2 (28). С. 51–62 [содержание номера]

Черняк Екатерина Леонидовна - аспирант кафедры анализа данных и искусственного интеллекта, отделение прикладной математики и информатики, факультет бизнес-информатики, Национальный исследовательский университет «Высшая школа экономики».
Адрес: 101000, Москва, Мясницкая ул., 20.
E-mail: echernyak@hse.ru

Миркин Борис Григорьевич - доктор технических наук, профессор кафедры анализа данных и искусственного интеллекта, отделение прикладной математики и информатики, факультет бизнес-информатики, Национальный исследовательский университет «Высшая школа экономики».
Адрес: 101000, Москва, Мясницкая ул., 20.
E-mail: bmirkin@hse.ru

      В большинстве задач семантического анализа текстовых материалов возникает потребность в использовании мер релевантности строка-текст.  К таким задачам относится и задача  рубрикации научных статей. Как правило, научные статьи индексируют согласно системе рубрик, заданной таксономией – иерархической структурой рубрик (или понятий). Например, в научных журналах международной Ассоциации вычислительной техники (ACM), наиболее авторитетной в области информатики организации, статьи проиндексированы их авторами с использованием специально разработанной многоуровневой таксономии ACM CCS. В работе исследуется возможность автоматизации рубрикации научных статей с использованием мер релевантности строка-текст: в качестве строк используются темы таксономии, а в качестве текстов – непосредственно тексты научных статей или некоторые их фрагменты. Мера релевантности строка-текст ставит им в соответствие некоторое число, которое может интерпретироваться по-разному в зависимости от используемой модели релевантности. Чем больше значение показателя релевантности, тем сильнее связь между строкой и текстом.
      В статье проведено экспериментальное сравнение различных мер релевантности строка-текст для автоматизации рубрикации научных статей. В эксперименте участвуют три меры: (а) косинусная мера релевантности, основанная на традиционном кодировании текстов с использованием tf-idf весов термов, (б) популярная характеристика вероятности порождения термов BM25 и (в) предложенная авторами характеристика условной вероятности символа в фрагментах, выделенных с использованием аннотированного суффиксного дерева, СУВСС. Для эксперимента использованы аннотации статей, опубликованных в журналах ACM, и таксономия ACM CCS 2012. В результате применения каждой из этих трёх мер получаются автоматические рубрикации статей – списки таксономических тем, упорядоченных по убыванию оценки релевантности данной статье. Оценка качества полученных результатов осуществляется с помощью сравнения автоматической рубрикации с авторской: чем выше в соответствующем списке авторская тема, тем точнее получившаяся рубрикация. Точность рубрикации оценивается с помощью популярных мер MAP и nDCG, а также меры,   характеризующей количество вхождений авторских тем в топ списка,предложенной в данной работе. Проведённые нами эксперименты показывают, что использование СУВСС существенно повышает точность рубрикации по сравнению с другими двумя мерами релевантности.

BiBTeX
RIS
 
 
Rambler's Top100 rss